文档信息提取(DIE)由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果,但在处理具有嘈杂的OCR结果或突变布局的复杂文档时,这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络(GMN),以解决这些问题,这是一种强大的多模式生成方法,没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块,GMN可以处理复杂的文档,这些文档很难序列化为顺序。此外,GMN可以容忍OCR结果中的错误,并且不需要字符级注释,这是至关重要的,因为对众多文档的细粒注释很费力,甚至需要具有专门域知识的注释者。广泛的实验表明,GMN在几个公共模具数据集上实现了新的最新性能,并超过了其他方法,尤其是在现实的场景中。
translated by 谷歌翻译